F2: Att hantera och beskriva data
Det här är en praktiskt användbar kurs som lär ut hur du
Det du lär dig här används bland annat av
- Läs igenom kapitlet i boken före föreläsningen
- Om ett matematiken ser svårt ut: börja med att titta på notationen!
Exempel: För att förstå innebörden av \[ \bar x = \cfrac{\sum_{i=1}^n x_i}{n}, \] måste du först förstå vad \(\bar x\) och \(n\) står för, och vad \(\sum_{i=1}^n x_i\) betyder.- Om du fastnar och inte hittar svar i boken, fråga!
- Skjut inte upp pluggandet, utan börja direkt!
Deskriptiv statistik: Beskriv din data på ett meningsfullt sätt
Inferens: Dra slutsatser om världen utanför
Data är allt som vi kan observera och spara på ett eller annat sätt. De kan vara strukturerade…
… eller ostrukturerade
Inom statistikämnet brukar en tabell som denna kallas för ett dataset
Inom statistikämnet brukar en tabell som denna kallas för ett dataset
Inom statistikämnet brukar en tabell som denna kallas för ett dataset
Vi är också intresserade av vad som inom statistikämnet brukar kallas metadata. Metadata är information om vårt datamaterial.
Metadata påverkar ofta trovärdighet och användbarhet
Ordinala variabler kan rangordnas (till skillnad från kategoriska variabler), men har ingen enhet (till skillnad från numeriska variabler)
Vi vill sammanfatta datamaterialet, och göra det överskådligt
Vi vill t.ex. kunna få en sammanfattning till en rapport på jobbet, eller till en uppsats/inlämning på universitetet – hur kan vi göra det?
Andelen i procent som tillhör grupp \(a\) räknas ut med formeln \[ p_a = \cfrac{n_a}{n} \cdot 100 \]
Notation:
Exempel: Andelen som tillhörde besättningen var \[ p_{\text{crew}} = \cfrac{n_{\text{crew}}}{n} \cdot 100 = \cfrac{889}{2208} \cdot 100 = 40.26 \%, \] där vi använt att \(n = 324+285+710+889\)
Ett stapeldiagram kan vara baserat på en frekvenstabell, om staplarnas höjd anger antalet observationer som tillhör en viss grupp
Ett stapeldiagram kan också vara baserat på en relativ frekvenstabell, om staplarnas höjd anger andelen av observationerna som tillhör en viss grupp
Fråga: Jämför den största soptunnan med den minsta? Hur många gånger större skulle du säga att den största soptunnan är?
I figuren till vänster ser vi på y-axeln att den största soptupnnan är ungefär dubbelt så hög som den minsta, men dess area är fyra gånger så stor
Stapeldiagrammet till höger ger är en mer rättvis representation
För numeriska variabler används vanligtvis histogram istället för stapeldiagram
Histogram ser ut ungefär som stapeldiagram, men istället för kategorier representerar staplarna intervall av numeriska värden
Till vänster ser vi ett stapeldiagram för den kategoriska variabeln Class
Till höger ser vi ett histogram för den numeriska variabeln Age
När du gör ett histogram väljer du själv bredden på dina intervall
I histogrammet till vänster representerar de orangefärdage staplarna ungefär 400 personer vardera
I det högra histogrammet är de vänstra intervallen ihopslagna, och den sammanslagna stapeln representerar då ungefär 800 personer
Som alternativ finns även täthetshistogram (density histogram)
I ett tätnhetshistogram motsvarar arean av en stapel andelen observationer som ligger inom motsvarande intervall
Det finns även stam- och bladdiagram (överst till vänster), punktdiagram (överst till höger) och täthetdiagram (underst)
Täthetsdiagrammet har samma form som ett histogram, men är utjämnat
Formen på ett histogram kan ge oss intressant information om hur värden på en variabel är fördelade
Vi kan titta på
Typvärdet (en: mode) är det värde av en variabel som observerats flest gånger (det värde på x-axeln där fördelningskurvan når sin topp)
Symmetrin och skevheten (en: symmetry/skewness) anger om fördelningen är symmetrisk eller sned
Extrema värden (outliers) är observationer som ligger långt från övriga observationer
Om fördelningen av en variabel har en enda topp så hittar vi typvärdet där. En sådan fördelning är unimodal (one mode)
Figuren nedan visar fördelningen magnituden på jordbävningar, och har sitt typvärde i närheten av 7
Om en fördelning har två toppar kallas den bimodal, och om den har flera toppar kallas den multimodal
Figuren till vänster visar ett index för levnadskostnader i olika städer, och har en topp var vid 40 och 80 (bimodal, kanske två olika grupper av städer?)
En fördelning som är jämn utan tydliga toppar och dalar, som den till höger, kallas för en uniform eller likformig fördelning
\[x_1=12, x_2=11, x_3=9, x_4=13, x_5=12, x_6=10, x_7=11\]
\[\cfrac{12+11+9+13+12+10+11}{7} = 11.14\]
\[ \bar x = \cfrac{x_1 + x_2 + \ldots + x_n}{n} = \cfrac{\sum_{i=1}^n x_i}{n} \]
\[ \bar x = \frac{\sum_{i=1}^n x_i}{n}, \]
\(\bar x\) (uttalas x-streck eller x-bar) betecknar medelvärdet för variabeln \(x\), och motsvarande gäller för \(\bar y\) osv
\(n\) används som symbol för antalet observationer i våra data (i föregående exempel har vi \(n = 7\))
Vi hittar medianen på följande sätt:
Vi har variabeln \(x\) med följande 5 värden:
| x | ||||
|---|---|---|---|---|
| 14.7 | 2.2 | 1.7 | 3.09 | 3.11 |
Vi börjar med att sortera våra värden i storleksordning
| x | ||||
|---|---|---|---|---|
| 1.7 | 2.2 | 3.09 | 3.11 | 14.7 |
Vi har variabeln \(x\) med följande 5 värden:
| x | ||||
|---|---|---|---|---|
| 14.7 | 2.2 | 1.7 | 3.09 | 3.11 |
Medianen är värdet i mitten av den sorterade listan
| x | ||||
|---|---|---|---|---|
| 1.7 | 2.2 | 3.09 | 3.11 | 14.7 |
Medianen är alltså 3.09
Vi har variabeln \(x\) med följande 6 värden:
| x | |||||
|---|---|---|---|---|---|
| 14.7 | 2.2 | 1.7 | 3.09 | 3.11 | 16.3 |
Vi börjar med att sortera våra värden i storleksordning
| x | |||||
|---|---|---|---|---|---|
| 1.7 | 2.2 | 3.09 | 3.11 | 14.7 | 16.3 |
Vi har variabeln \(x\) med följande 6 värden:
| x | |||||
|---|---|---|---|---|---|
| 14.7 | 2.2 | 1.7 | 3.09 | 3.11 | 16.3 |
Medianen är medelvärdet av de två observationerna i mitten
| x | |||||
|---|---|---|---|---|---|
| 1.7 | 2.2 | 3.09 | 3.11 | 14.7 | 16.3 |
Medianen är alltså \[ \frac{3.09+3.11}{2} = 3.10 \]
Det finns olika mått på hur stor spridningen är, till exempel
Exempel:
\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]
\[ s = \sqrt{s^2} \]
\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]
\[ \sum_{i=1}^n(y_i - \bar{y})^2 = (y_1 - \bar y)^2 + (y_2 - \bar y)^2 + ... + (y_n - \bar y)^2 \]
| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) |
|---|---|---|---|---|---|---|---|---|
| 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
Som mått på hur mycket vikten skiljer sig åt mellan säckarna vill vi räkna ut standardavvikelsen
Vi börjar med formeln för variansen
\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]
| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) |
|---|---|---|---|---|---|---|---|---|
| 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - 20.78)^2}{n-1} \]
| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) |
|---|---|---|---|---|---|---|---|---|
| 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) |
|---|---|---|---|---|---|---|---|---|
| 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
\[ 4.93+38.69+1.49+95.65+7.73+27.25+3.17+60.53+52.13 = 291.57 \]
\[ s^2 = \cfrac{\sum_{i=1}^9 (y_i - 20.78)^2}{n-1} = \cfrac{291.57}{9-1} = 36.446 \]
| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) |
|---|---|---|---|---|---|---|---|---|
| 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
\[ s = \sqrt{s^2} = \sqrt{36.446} = 6.037 \]
Det finns ingen entydig regel för hur kvartilerna räknas ut. I De Veaux et al (2021) föreslås följande metod:
Sortera observationerna i storleksordning
Identifiera medianen, som är samma sak som \(Q_2\)
Om antalet observationer är jämnt: dela in observationerna i två lika stora delar, en med mindre värden och en med större värden (än \(Q_2\))
Om antalet observationer är udda: gör samma sak som ovan, men låt observationen i mitten ingå i båda delarna
Räkna ut medianen för observationerna med mindre värden, detta är \(Q_1\)
Räkna ut medianen för observationerna med större värden, detta är \(Q_3\)
Vi kan också tala mer generellt om percentiler
Den p:te percentilen är ett värde som är större än p procent av observationerna och mindre än 100 - p procent av observationerna
Exempel: Den 90:e percentilen är ett värde som är större än 90 procent av observationerna och mindre än 10 procent av observationerna
\(Q_1\) är alltså samma sak som den 25:e percentilen, \(Q_2\) är samma sak som den 50:e percentilen och \(Q_3\) är samma sak som den 75:e percentilen
Om spridningen i en fördelning bäst rapporteras i form av standardavvikelse eller i form av IQR beror på syftet
Standardavvikelsen är bättre om det är viktigt att alla observationer beaktas
IQR är bättre om vi vill ha ett mått som inte påverkas av outliers
Standardavvikelse brukar rapporteras tillsammans med medelvärdet och IQR tillsammans med medianen
R-koden nedan skapar en frekvenstabell som visar hur många passagerare som reste i varje klass på Titanic
För att köra koden ovan måste vi ha
titanic till Rmosaic, som innehåller funktionen tally()#Make a barplot of variable the variable Class
bargraph(~Class, data=titanic, main="Classes on the Titanic")#Make a pie chart of the variable class
class_table <- tally(~Class, data=titanic) # Create freq. table
# Create pie chart using freq. table
pie(x=class_table, main="Classes on the Titanic") Det här kommandot ger oss ett täthetshistogram
Genom att sätta type="count" får vi ett histogram med frekvenser.
Funktionen favstats() i mosaic ger oss flera mått som kan användas för att visa centrum och spridning i en fördelning
Längt till höger ser vi att missing har värdet tre, vilket betyder att tre av observationerna saknar värden för variabeln Age
Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj